查看原文
其他

文章荐读 | 基于归因分析的引用模式挖掘及其实证研究

崔蕴学, 王贤文等 情报学报ISSN10000135
2024-09-23

文 章 荐 读 



基于归因分析的引用模式挖掘及其实证研究


崔蕴学, 王贤文, 王勇臻    

大连理工大学科学学与科技管理研究所暨WISE实验室,大连 116024    


摘要

       学术文献的引用模式背后潜藏着纷繁复杂的引用动机,制约着学术界对科研人员引用行为的深入理解。针对这一问题,本文以归因分析为研究视角,选取PubMed Central数据库的50万条引用关系作为研究样本,旨在揭示引用模式背后的原因构成并予以定量解释。首先,从引用的学术动机和非学术动机出发,遴选了12类引用因素作为特征,用于刻画引用关系;其次,根据所构建的特征,采用决策森林算法在50万条真实引用关系和等量配对的虚拟引用关系上进行分类实验;最后,借助SHAP(SHapley Additive exPlanations)解释框架对实验结果进行归因,评估了12类引用因素在引用决定中的影响程度和作用方式。研究结果表明,不同的引用因素在决定是否引用一篇文献的过程中所发挥的作用具有较大差异。具体而言,主题相关性、研究背景相似性以及被引作者学术水平等因素在引用决定中发挥了主要作用,而其他因素如期刊影响力、话题热点性等,则在引用决定中起次要作用。除此之外,不同引用因素对引用决定的作用方式也不尽相同,其特征取值与对引用决定的影响程度的变化关系可归结为4种类型:S曲线型、对数增长型、二分型以及随机波动型。


关键词

归因分析; 引用模式; SHAP


引用格式:

崔蕴学, 王贤文, 王勇臻. 基于归因分析的引用模式挖掘及其实证研究[J]. 情报学报, 2023, 42(4): 381-392.


👈长按识别文章二维码查看全文


0

引言

        学术论文作为科学知识流动的主要载体,并非无源之水,其所传达的观点与见解依附于已有的科学知识体系。科研人员在撰写学术论文时,通常需要引用现有的研究成果,以主动将自身的研究工作纳入不断成长的科学知识体系之内[1]。在这一知识创造过程中,施引者与被引者彼此间建立了内在逻辑上和外在形式上的双重联系。其中,内在逻辑表现为施引文献出于复杂多样的原因和动机而决定引用被引文献,而外在形式则体现为文献之间的相互引用记录及其数量关系。在本质上,这种复杂的内外联系蕴含着科研人员引用行为的一般特征和基本规律[2],即引用模式。开展引用模式研究,挖掘引用行为的一般特征或特定倾向,对于深入理解科学知识的流动机制、揭示引用行为的模式特征和逻辑规律等方面具有重要的现实意义。

        当前,对引用模式的研究主要集中在挖掘引用行为的外在形式特点上[3-4],并借由引用时间和引用空间两个视角展开。若从引用时间的视角出发,则其为研究引用的时间分布模式,大量研究通过对被引频次随时间的变化趋势进行拟合,进而发现了多种人们所熟知的引用分布曲线[5-6],如指数增长曲线[7]、“睡美人”曲线[8]、对数正态曲线[9]等;若从引用空间的角度出发,则其为研究引用网络的结构模式[10],通常是将引用关系嵌入网络中,并对其社团结构、节点的度分布、链接路径等加以分析,从而挖掘引用空间的结构特性[11-13]。例如,Redner[14]发现了引用网络的无标度特性,Chen[15]利用网络聚类和可视化算法挖掘前沿主题或核心文献等。尽管这些研究较为全面地刻画了引用行为外在形式上的特征和规律,却难以对这些现象进行归因和解释,一个重要的原因在于这些研究均将引用关系简单地视为引用与否的一维关系,这种将引用关系简化的表示方式有利于发现被引频次本身的发展规律,但无法深入揭示这一数值之后隐含的更深层次的知识流动特性。因此,如何对引用关系进行解构,进而挖掘引用行为的内在逻辑规律,仍值得进一步探讨和研究。

        事实上,引用行为具有复杂性,其背后具有丰富多变的引用动机或原因[16-17],而在这些引用动机和原因之下潜藏着引用行为的内在逻辑规律。当前,学术界已有大量研究从不同视角对引用行为的动机和原因进行了探讨和分析,为探究引用行为的内在逻辑规律提供了坚实的研究基础。从理论研究上来说,莫顿的科学规范理论[18]将引用行为解释为科研人员对同行工作的认可和表彰,体现了科学研究带来的认知影响;而社会构建主义[19]则持不同看法,其将引用行为视作一个复杂的心理认知过程,认为科研人员的引用决定会受多种引用因素的影响,如被引作者的学术影响力、被引文献所属的出版物水平等[20]。从实证研究上来看,部分研究采用质性研究方法归纳总结了可能的引用动机和原因。例如,Garfield[16]将引用动机总结为包括致敬、提供背景、证明观点等在内的15种;Brooks[21]将引用归结为说服性引用、支持性引用、时效性引用等7类;Vinkler[22]分析了引用的学术动机和非学术动机;邱均平等[23]提出引用动机存在内在引用动机和外在引用动机之分,并进行了总结。更多的研究则是通过定量分析的手段致力于发掘各类引用因素,并揭示其与论文被引的关系[24],例如,Bornmann[25]发现期刊影响因子、论文页数、作者数量以及参考文献的数量与论文被引频次存在弱关联;王海涛等[26]的研究表明,是否基金资助、发表年份、研究主题差异均对论文的被引频次具有显著影响。通过这些已有的理论或实证研究不难发现,科研人员的引用行为与各类引用因素存在或强或弱的关联,且部分引用因素与科研人员的引用动机相匹配,如研究主题的关联反映了提供背景支持等方面的引用动机。一方面,这些引用因素可在一定程度上反映引用动机从而解释引用行为结果,并可以通过文献计量指标或特征来测度和表示;另一方面,在心理学等学科中,将人的行为结果作为行为因素的函数加以分析,推论这些行为背后的原因构成,从而对其进行解释的过程,即归因分析[27]。因此,如果使用能够表征引用动机和原因的指标或特征来对引用关系进行解构和表示,那么便可开展对科研人员引用行为结果的归因分析,可将引用模式的分析拓展到这些引用因素构成的空间上,为定量的挖掘引用行为的内在逻辑规律提供了可能。目前,已有部分学者开始关注由各类引用因素构成的特征空间[28-29],并融合机器学习或深度学习框架,在各自的特征空间上开展了诸如引用分类、引用预测、引用影响因素的挖掘和分析等任务[30-32],并取得了良好的效果。然而,由于机器学习方法本身存在的黑盒特性,其输出结果仍旧难以直观解释,更重要的是,缺乏在统一的框架下评估各类引用因素对引用行为结果影响程度的方式,以及将其应用于引用模式挖掘的尝试。近年来,一种具有坚实理论基础的机器学习解释框架SHAP(SHapley Additive exPlanation)[33]提供了解决这一问题的有效路径。借此,本文将应用机器学习模型和SHAP解释框架对多种引用因素在引用决定中的作用进行评估,进而实现对引用行为结果的归因和量化解释,以期挖掘出引用行为的内在逻辑规律,加深对科研人员引用行为的理解。


1

研究方法与设计

        引用的实践过程可以视为研究人员出于一定的目的,利用被引文献的相关信息或特征进行引用决策的过程。研究人员撰写学术论文时,需要从候选文献中选择符合其需求的文献进行引用,这一过程可以简化为一个分类任务,即根据一系列的决策规则,将候选文献划分为引用类或不引用类,入选引用类的文献即最后被引用的文献。同时,研究人员的引用决策过程受各类引用原因的影响,但这种影响并非均匀分布,有的原因起主要作用,有的原因起次要作用,且其作用方式各不相同。若将这一现象对应到分类任务中来,则表现为各个引用因素在分类过程中的影响程度及作用方式的不同。因此,为实现对学者引用行为结果的归因和量化解释,挖掘出引用行为的内在逻辑规律,须模拟论文作者的引用决策过程,并评估各类引用因素的影响程度和作用方式。据此,本文将在由多个引用因素构成的特征空间上,使用决策森林算法模拟研究人员的引用决策过程,并借助SHAP解释框架对各引用因素在引用决策过程中的影响程度及其作用方式进行评估和量化解释。


1.1 决策森林算法

        机器学习分类算法有多种,相较于采取单一分类器的传统机器学习分类算法如支持向量机、朴素贝叶斯等,决策森林算法通过建立多个不同的弱分类器,并将这些弱分类器线性组合,得到一个更强大的分类器来做最后的决策,这种方式提高了分类任务的精确度,获得了比单一分类器更好的分类效果。为了获得更好的分类能力,本文选择使用决策森林分类算法作为候选算法。在常用的决策森林算法中,XGBoost(eXtreme Gradient Boosting)[34]是一个经过优化的分布式梯度提升算法,属于决策森林算法中的Boosting算法。相较于其他决策森林算法(如随机森林算法),其在代价函数里加入了正则项,用于控制模型的复杂度,使学习出来的模型更加简单,不易过拟合,精确度较高且运行速度更快。同时,由于SHAP框架计算的时间复杂度较高,经过测试比较,相对于随机森林等决策森林算法,SHAP对基于XGBoost算法的机器学习模型运算耗时最少。综合考虑之下,本文最终选择XGBoost作为分类任务的实现算法,用于模拟研究人员的引用决策过程。


1.2 SHAP解释框架


相较于其他机器学习解释工具以及传统的基于信息增益、基尼系数计算特征影响程度的方法,SHAP具有两大优势。

        (1)兼具全局可解释性和局部可解释性——SHAP值可以显示每个特征对目标变量的积极或消极贡献,而每个观察样本都有自己的一组SHAP值,这大大增加了其透明度。可以利用SHAP值来解释一个输入如何得出其预测输出以及计算各个预测变量的贡献,从而能够评估和对比这些变量所表示的因素的影响。

        (2)解决了多重共线性问题——SHAP算法涉及全部特征及其组合,不仅考虑了单个变量的影响,而且考虑了变量之间的协同效应。也可以通过计算单变量模型中的SHAP值来分析单个变量如何独立影响模型的预测结果。

        综上,本文选择使用SHAP解释框架对XGBoost分类算法的运行结果进行归因,并评估各类引用因素的影响程度及作用方式。


1.3  研究设计

        本次研究将在本文所构建的特征空间上挖掘科研人员的引用模式,分析各类引用因素在引用决策过程中的影响程度,探究不同的引用因素如何影响引用决定。具体的研究设计如图1所示。首先,本文将从科研人员的引用动机与原因角度来考虑影响引用行为的主要因素,据此构建一系列量化的特征来对引用关系进行解构;然后,提取来自PubMed Central数据库的真实引用关系,作为训练分类模型的正样本,同时采用随机选取文献替换被引文献的方式制作等量的虚拟引用关系作为负样本,并计算这些真假引用关系的全部特征作为最终的实验数据;接着,采用决策森林算法中的XGBoost模型对真假引用关系进行分类,以此模拟研究人员的引用决策过程,同时评估输出结果并调整模型参数以达到最佳分类效果;最后,基于SHAP解释框架对XGBoost模型运行过程中各类特征起到的作用进行量化估计和分析,以此挖掘和解释研究人员的引用模式。

图1  本文的研究设计


2

研究数据及特征构建

2.1 数据准备

        本文采用的数据来源于美国国家医学图书馆建立的PubMed数据库中的PubMed Central子库,这是一个开放的生物医学和生命科学期刊文献数据库。PubMed为每篇文章都分配了一个或多个MeSH(medical subject headings)主题词以划定其研究主题,这些主题词覆盖了医学的12个学科和生物学的10个学科。本文使用了截至2019年的PubMed Central数据集,共涉及2287492篇学术文章,这些文章总共涵盖29132个主题(MeSH分类索引)、34134种期刊、1558698位作者和81334215条引用关系。通过数据清洗、去重,并以此数据为基础计算了全部引用特征值之后,为保证每个实验样本中的特征不为空值,最终提取到50万条真实引用关系作为训练分类器的正样本;相对应地,依据施引文献为每一条正样本构造相应的虚拟引用关系作为负样本,保证每对正样本和负样本都有相同的施引文献,不同的是后者的被引文献从发表时间早于施引文献的同领域论文中随机抽取,并计算其引用特征值。最终,得到50万条正样本和50万条负样本,共100万条引用关系及其特征,并以此作为分类实验数据。


2.2 引用特征构建

        本文的研究方案是建立在使用丰富的引用特征对引用关系进行解构和表示上的,这些特征代表了引用决定的诸多影响因素,反映了引用决定背后的动机或原因,因此,从主要的引用动机或原因出发构建引用特征体系是本文展开研究的基础。就引用的具体动机或原因而言,已有许多研究人员进行了归纳总结[16,22-23,36],提出了诸如提供研究背景、支持自身观点、彰显权威性等丰富的引用动机;而在引用的影响因素方面,Tahamtan等[20]等总结了与引用决定相关的引用因素。受已有研究的启发,本文综合考虑了多种引用动机及其对应的引用因素,以及这些引用因素在数据集中的可计算性,构建了12个引用特征以衡量主要的引用动机或原因。同时,依照Vinkler[22]对引用动机的分类将这些引用特征划分为学术动机相关和非学术动机相关的两大类。其中,与学术动机相关的特征又细分为与当前研究内容相关和与历史研究背景相关的两个子类,而非学术动机相关的引用特征则细分为引用权威性相关、引用时效性相关以及引用功利性相关的三个子类。具体的特征分类及特征描述汇总展示如表1所示。


2.2.1 学术动机相关的特征

        按照Vinkler[22]对引用动机的总结,引用的学术动机主要包括综述前期研究、提供研究背景、肯定(批判)已有研究、支持和论证当前研究、借鉴他人的理论和方法等方面。前三者主要与已有研究相关,是施引者为当前研究所做的背景铺垫;而后两种引用动机主要与当前研究内容直接相关,目的是彰显当前研究的研究思路、研究方法或研究结论的价值及合理性。因此,本文从历史研究背景相关以及当前研究内容相关两个视角分别构建了两个引用特征以反映引用的学术动机。

(1)历史研究背景相关

        科研人员通常具有相对固定的研究主题或研究方向,这使得其发表的论文通常具有近似的研究背景,体现出施引者研究脉络的延续性[36-37]。因而,与施引者已发表论文的研究领域或研究主题越相近的文献越可能提供施引者需要的研究背景。据此,本文构建了两个特征从不同角度反映被引文献与施引文献作者的研究背景的关联,分别为被引文献与施引者已发表文献的文献耦合强度[37]以及背景主题相似度。其中,文献耦合强度是在文献计量学中间接测度文章之间研究主题、领域相近性的常用计量指标,文献耦合强度越高,表明两篇文章之间的研究领域越相近;而背景主题相似度则直接测度了被引文献与施引者已发表的文献的主题词之间的关联程度,背景主题相似度越高,则被引文献与施引者的研究背景越匹配,其中相似度基于文档的MeSH主题词之间的点互信息(pointwise mutual information)[38]进行计算。点互信息常用于计算语言学或NLP任务中测度两个词语之间的关联程度,其定义为

(2)当前研究内容相关

        从最直接的引用动机来说,科研人员引用前人的研究以支持、论证自身研究,体现自身研究的价值和可靠性,这必然要求被引文献与当前研究的主题或内容具有较强关联。由此,本文采用主题相似度和标题相似度来分别衡量被引文献与施引文献在研究主题及研究内容上的关联程度,相似度越高,表明二者在内容和主题上的契合度越高。其中,主题相似度仍采用公式(3)定义的点互信息计算,而标题相似度则使用两篇论文标题向量化表示后的余弦相似度进行计算,其取值范围为[-1,1],表示两篇论文的研究内容从完全不相关到完全相关。论文标题被表示为一个700维的实值向量,并由一项在PubMed和MIMIC-III临床语料库上训练的sent2vec表示模型生成,标题向量t1,t2的相似度计算方式为

2.2.2  非学术动机相关的特征

        引用的非学术动机意指那些不涉及研究内容、主题等学术要素的引用目的,包括但不限于树立学术权威(如突显被引作者、文章、期刊等的学术地位)、展示时效性(如热点话题或近期发表的文献)、达成功利性目的(如增加自身论文的关注度)等方面[22]。本文从引用权威性、引用时效性以及引用功利性的视角出发,构建了共8个特征以反映引用的非学术动机。

(1)引用权威性相关

        在引用关系的建立过程中,为了提高引证的说服力和权威性,同等条件下施引者通常倾向于引用来自高质量期刊、高影响力作者的文章[20,36]。在文献计量指标中,H指数被广泛采用来测度科学家的影响力,因此,本文选择H指数作为表征被引学者学术权威性的度量。评估期刊的质量和影响力的量化指标有很多,如总被引数、期刊影响因子、期刊H指数、即时指数、特征因子值等,这些量化指标均与期刊的被引次数有关,其中最常用的量化指标是期刊影响因子。为避免重复度量,本文选择使用期刊影响因子表征出版物的权威性。此外,被引文献自身的影响力同样是引用权威性的重要来源,马太效应的存在使高影响力的论文天然具有引用优势[39]。文献计量中常用被引频次作为论文质量和影响的代表。近年来,为了补充传统的学术影响力评估方式,有些替代计量指标被用于评估论文的社会媒体影响。其中,以altmetric得分为代表。鉴于此,本文同时使用被引频次和altmetric得分代表论文层面的权威性因素,其中论文的altmetric得分查询自altmetric.com。

(2)引用时效性相关

        由于文献老化、知识过时规律的存在,过于老旧的文献和知识往往难以获得引用青睐。施引者出于展现自身研究与时俱进的目的,往往会选择引用同时代人的最新研究或热点研究以彰显自身研究的前沿性[21]。基于此,本文使用被引文献与施引文献的发表时间间隔来度量被引文献的老旧程度,并提出了一个主题热度指标以反映被引文献的热点性。主题热度指标基于被引文献的MeSH主题词的相关文献数量而得出,每个MeSH主题词的热度定义为

(3)引用功利性相关

        功利性的引用动机表示施引者出于某种功利性目的而进行引用,如通过自引而宣传作者已发表的文章,或引用他人的文章从而建立与他人的联系等[22]。通常这些功利性目的是隐性的且难以被直接测度,而通过判断施引文献与被引文献在作者和出版物方面的一致性,能够显性观察到引用关系是否存在自引现象。本文设置了两个二元特征(是否同作者、是否同期刊),分别观测引用关系中是否存在作者层面及期刊层面的自引行为。


3

结果与分析

        本文在实验数据集上进行了引用关系的分类实验。XGBoost设置参数为objective=‘binary:logistic’,gamma=0.1,max_depth=8,min_child_weight=3,subsample=0.8,colsample_bytree=0.5,其余参数采用默认值。将实验数据按照7∶3划分为训练集和测试集,经过测试,所得分类器的分类精确度达到94.88%,取得了优秀的分类性能。利用训练好的分类器,在全部实验数据上运行SHAP解释框架,计算每个样本中所有特征的SHAP值,基于所得的SHAP值,开展以下分析。


3.1 引用因素影响程度的分布

        本文通过计算引用特征的SHAP值来评估各引用因素在引用决定中的影响程度,由于SHAP兼具全局和局部解释性,每个特征在每个观察样本中均有一个SHAP值来评估其在此样本中的影响程度。因此,对每一个引用特征来说,在所有的观察样本上的SHAP值构成了该特征的SHAP值分布,如图2所示。图2中以横向小提琴图的形式展示了每个引用特征在全部样本上的SHAP值分布,以及与SHAP值对应的样本观察值的相对大小。其中,纵轴表示各引用特征,横轴表示SHAP值。当SHAP值大于0时,SHAP值越大,表明该特征表示的引用因素对引用决定的正向作用越大;反之,SHAP值越小,则表明该特征表示的引用因素对引用决定的负向作用越大。每个样本点对应的观察值的相对大小以颜色的深浅程度表示,较深的颜色表示引用特征在此处的样本观察值较高,而较浅的颜色则表明样本观察值较低,由浅色至深色的颜色变化表示引用特征样本观察值由低到高的变化。

图2  全部引用特征的SHAP值分布


        如图2所示,以SHAP值的分布形态观察,主题相似度、标题相似度以及背景主题相似度的SHAP值呈多峰分布,其余引用特征的SHAP值呈现单峰的偏态分布。这表明本文所关注的引用因素通常对引用决定的影响拥有一个或多个较为稳定的作用程度区间(峰值区域),而在少数情况下则会产生较大的变化(长尾部分)。此外,图2中引用特征的SHAP值的分布范围各异,表明各引用因素在引用决定中的影响范围也不尽相同。若以代表引用特征样本观察值高低的深色和浅色的分布来观察,各引用特征的观察值在其SHAP值上的分布也存在较大差异,特征观察值的高低与其SHAP值的大小并非完全对应。同时,还应当考虑SHAP值存在正负之分,分别代表了引用因素对预测结果的积极作用和消极作用,这些均意味着引用因素与引用决定之间并非简单的线性关系,其作用模式有待进一步的挖掘和分析。为了合理评估这些引用因素的影响程度,考虑到SHAP值的绝对值越高表示特征的影响越大,本文将所有样本中每个引用特征的SHAP值取绝对值后再取其平均值作为引用因素影响程度的最终度量指标,并比较各引用因素的影响程度,如图3所示。

图3  全部引用特征在引用决定中的影响程度分布


        图3显示了本文的引用特征在科研人员的引用决定中的影响程度分布,纵轴表示影响程度,横轴列出了全部引用特征,并按照影响程度的大小从高到低排列。从图3可知,主题相似程度在科研人员决定是否引用一篇文献时扮演了最重要的角色,其特征重要性为0.150,显著高于其他引用特征,而标题相似度次之,为0.093。显然,学术动机是科研人员进行引用的最主要目的,其中被引文献和施引文献在研究内容、研究主题上的直接关联程度是施引者首要考虑的因素,作者通常不会考虑引用与自己当前工作关联较低的文献。同时,还注意到反映被引文献与施引作者研究背景相关性的文献耦合强度、背景主题相似度分列影响程度排序的第3位和第5位,显示出科研人员对被引文献与其研究方向契合度的重视,展现出引用选择具备研究领域、主题上的延续性。在引用的非学术动机方面,图3显示出作者的学术水平(作者H指数)是引用中非常重要的非学术因素之一,是论文影响力(被引频次)的影响程度的2倍,可见在引用选择中作者的水平比论文的水平更具决定性。相比之下,代表期刊影响力的期刊影响因子重要程度(0.002)最低,仅为期刊自引(0.031)的1/15,可见刊物对科研人员引用决定的作用并不表现在其自身的学术影响力上,却可能表现在其作为投稿目标而带来的期刊自引(0.031)上。其他引用特征如主题热度、发表间隔、作者自引、altmetric得分等的影响程度也较低,表明这些因素对施引者的引用决定来讲同样影响甚小。综合来看,学术引用动机相关的因素是科研人员引用的主要原因,其中与当前研究内容相关的因素最为重要;非学术引用动机相关的因素则为次要原因,其中作者以及文献自身的影响力带来的引用权威性相对比较重要,其他如功利性动机、时效性动机相关的因素影响较小。


3.2 引用因素的作用方式

        在引用决策过程中,各类引用因素的影响不仅体现在其作用程度上,同样存在于其对引用决策的作用方式,即如何影响引用决策上。借助SHAP值对引用因素的作用方式进行挖掘和分析,是本文的研究内容之一。由图2可知,不同引用特征的样本观察值在其SHAP值上的分布(即颜色深浅的分布)存在明显的差异,样本观察值的高低与其SHAP值的大小并非完全对应。一方面,这种差异源于引用特征的SHAP值包含了多个特征之间的交互效应,存在其他特征的影响;另一方面,不同的引用因素对引用决定的作用方式可能是不同的。为了消除多个特征带来的交互影响,本文通过删除其他特征,计算单一特征模型中的SHAP值来分析单个因素如何独立影响引用决定。绘制每个特征的SHAP值与其样本观察值的散点图,观察该特征表示的因素对引用决定的独立影响程度的变化趋势,发现本文所构建的12个引用特征存在4类不同的作用方式。

        如图4所示,衡量内容或主题关联性的特征——主题相似度、标题相似度及背景主题相似度,其SHAP值与样本观察值之间的关系呈现近似S形曲线。其共性特点是引用特征的样本观察值在某一范围内与其SHAP值呈显著的正向关系(主题相似度、背景主题相似度在0点附近,标题相似度则在0.9附近),这意味着样本观察值越高,该因素对引用决定的正向影响越强;超出这一范围后,其SHAP值便稳定在某一水平附近,不再发生趋势性变化。此外,上述引用特征的作用曲线涵盖了SHAP值由负值到正值的变化,表明其在不同的取值区间对引用决定产生的作用方向并不相同,较高的相似度对引用决定产生积极影响,促进论文被引用;反之,则产生消极影响,不利于论文被引用。以主题相似度的曲线为例,其关于横轴和纵轴的0点位置对称分布,当主题相似度大于0时对引用决定具有积极作用;反之,则具有消极作用。当主题相似度在0点附近时,引用决定对其变化极为敏感,但当主题相似度增长或降低到一定阈值时,其正向或负向作用均达到最大,并在最大值附近波动,意味着该因素在科研人员引用决定中的影响存在作用上限。

图4  主题相似度、标题相似度和背景主题相似度的作用曲线


        文献耦合强度、作者H指数、被引频次和主题热度则具有另一种作用方式。如图5所示,其散点图近似对数增长曲线,特点是随着引用特征的取值从最小值逐渐增大,SHAP值迅速提高,当引用特征取值超过特定范围后,其SHAP值维持在固定区间内波动。值得注意的是,这些引用特征只在其最小取值附近时SHAP值小于0,表明此类引用因素只在少数情况下对引用决定具有消极作用。以作者H指数为例进行说明,当作者H指数在0点附近时,SHAP值小于0,表明若论文的作者多是初出茅庐的科研新手,即学术影响力极低,则该论文不容易获得他人引用;随着作者的H指数不断升高,其对应的SHAP值变化为先升高后走平,此时其对引用决定产生积极影响,且作用程度达到最高水平。这种现象表明学者的学术影响力的增长会促进自身论文的被引用,但这种影响同样存在作用上限。

图5  文献耦合强度、作者H指数、被引频次、主题热度的作用曲线


        二分类型的引用特征的作用曲线也表现为二分型,如图6所示,期刊自引和作者自引因素均会对科研人员的引用选择产生影响。当候选文献与施引文献同期刊或同作者时,二者的SHAP值显著大于0,表明这两种情形有利于候选文献被引用;反之,则多数情况下二者的SHAP值略低于0,表明其对论文的被引存在微弱的阻碍作用。这一结果意味着在不考虑其他因素的情况下,科研人员确实存在优先引用自己的文章或欲投稿期刊的文章的动机。


图6  期刊自引、作者自引的作用曲线


        发表间隔、altmetric得分和期刊影响因子的作用模式如图7所示,这些引用特征均表现出围绕SHAP值的0轴随机波动的形态,且波动范围随着特征取值的增大而逐渐减小。这种现象表明此类引用因素对科研人员引用决定的整体影响较为微弱,且作用方向可能因人、因情况而异,同一特征取值水平上既可以是正向影响也可以是负向影响。具体来看,altmetric得分与期刊影响因子,其图形围绕SHAP值的0轴对称分布并上下波动,但振幅随特征取值的提高而降低。这表明当候选文献的社会媒体影响力或其所属期刊影响力较低时,可能会使得不同施引者在引用选择上具有明显差异;反之,则选择差异不明显。发表时间间隔的作用模式也遵循此规律,越老的文献越难以影响引用选择,甚至不利于被引用,这体现了文献老化规律的有效性。值得注意的是,发表时间间隔在小于等于0(当年发表或预发表)时,SHAP值为负值,可见新出版的文献不容易被引用;而发表时间为一年或两年的文献最具竞争力,因其SHAP值通常大于0且高于其他时间间隔水平。这可能与引用的时间滞后性有关。


图7  发表间隔、altmetric得分、期刊影响因子的作用曲线


4

结论与讨论

        本文以归因分析为研究视角,结合决策森林算法和SHAP解释框架,对科研人员引用模式背后的原因构成以及各引用因素的作用规律进行了深入挖掘和解读。一方面,文章的创新点在于从引用动机出发,利用与引用动机相关的引用因素,构建了一套具有良好解释性的引用特征体系,实现了对引用关系的解构以及对科研人员引用决定的归因分析;另一方面,本文基于SHAP值对主要引用因素在引用决定中的作用进行了量化评估和分析,重点探究了这些引用因素在科研人员引用决定中的影响程度以及其对引用决定的作用方式。实证分析的结果表明,各类引用因素的影响程度有较大差异,分布极为不均衡。综合来看,学术引用动机相关的因素是科研人员引用的主要原因,其中与当前研究内容相关的因素最为重要;非学术引用动机相关的因素则为次要原因,其中作者以及文献自身的影响力带来的引用权威性比较重要,其他如功利性动机、时效性动机相关的因素影响较小。具体而言,主题相关性、研究背景相似性以及作者的学术水平等因素在引用决定中为主要作用;其余的引用因素如发表时间、期刊影响力等,则在科研人员的引用决定中起次要作用。对这些引用因素的作用规律的探究显示,其特征取值与对引用决定的影响程度的变化关系可归结为4种类型:S曲线型、对数增长型、二分型以及随机波动型。研究主题或内容相关性的作用方式近似S形曲线,相关程度越高,则越有利于候选文献被引用;反之,则越不利于被引用。但当相似度超出某一范围后,其对引用决定的影响不再发生趋势性变化,即存在影响程度的上限。研究领域相关性、作者学术影响力、论文影响力和研究话题热点性的作用方式近似对数增长曲线,其影响程度随着特征取值的增加先迅速提高后逐渐走平。期刊自引和作者自引因素则表现为二分型,同期刊或同作者对引用决定存在积极影响;反之,则存在消极影响。发表时间间隔、论文的社会媒体表现、期刊影响力这些因素对引用决定的影响较弱,且只有在特征值较低时,会带来明显的施引者选择差异;反之,则难以对引用选择造成实质性影响。

        本文的研究结果提供了对科研人员引用行为背后的逻辑规律的新认识,通过对科研人员引用决定的归因分析,提出了挖掘研究人员的引用模式并解释其引用决定的新思路。当然,本文的研究结论仍存在以下几个方面的风险:首先,引用行为的原因与动机复杂多变,可能存在重要的引用因素未被纳入本文的研究中,因此,本文对研究人员引用模式内在规律的总结和解释并不完善,尚有一些方面值得进一步探讨;其次,本文仅从数据出发,采用数据挖掘的方式对引用模式背后的原因构成进行分析,其结果可能与真实的原因构成存在偏差;最后,本文的实证研究数据源于医学和生命科学领域,为研究结果带来领域差异,而不同学科领域的学者的引用模式可能存在不同。因此,后续研究需丰富研究数据,考虑更全面的引用原因与动机,并结合定性的研究方法进行深入探索。


参考文献

[1] Slyder J B, Stein B R, Sams B S, et al. Citation pattern and lifes‐pan: a comparison of discipline, institution, and individual[J]. Sci‐entometrics, 2011, 89(3): 955-966. 

[2] 邱均平 . 信息计量学(九) 第九讲 文献信息引证规律和引文分析法[J]. 情报理论与实践, 2001, 24(3): 236-240. 

[3] Gross P L K, Gross E M. College libraries and chemical education[J]. Science, 1927, 66(1713): 385-389. 

[4] Garfield E. Citation analysis as a tool in journal evaluation[J].Science, 1972, 178(4060): 471-479. 

[5] Avramescu A. Actuality and obsolescence of scientific literature[J]. Journal of the American Society for Information Science,1979, 30(5): 296-303. 

[6] 李江, 姜明利, 李玥婷 . 引文曲线的分析框架研究——以诺贝尔奖得主的引文曲线为例[J]. 中国图书馆学报, 2014, 40(2):41-49. 

[7] Sangam S L. Obsolescence of literature in the field of psychology[J]. Scientometrics, 1999, 44(1): 33-46. 

[8] Van Raan A F J. Sleeping beauties in science[J]. Scientometrics,2004, 59(3): 467-472. 

[9] Egghe L, Ravichandra Rao I K. Citation age data and the obsoles‐cence function: fits and explanations[J]. Information Processing & Management, 1992, 28(2): 201-217. 

[10] Price D J. Networks of scientific papers[J]. Science, 1965, 149(3683): 510-515. 

[11] 宋歌. 网络分析方法在引文分析中的整合研究[J]. 中国图书馆学报, 2011, 37(4): 106-114. 

[12] Hummon N P, Dereian P. Connectivity in a citation network: the development of DNA theory[J]. Social Networks, 1989, 11(1):39-63. 

[13] Chen P, Redner S. Community structure of the physical review ci‐tation network[J]. Journal of Informetrics, 2010, 4(3): 278-290. 

[14] Redner S. How popular is your paper? An empirical study of the citation distribution[J]. The European Physical Journal B - Con‐densed Matter and Complex Systems, 1998, 4(2): 131-134. 

[15] Chen C M. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006, 57(3): 359-377. 

[16] Garfield E. Can citation indexing be automated[C]// Symposium Proceedings of Statistical Association Methods for Mechanized Documentation. Philadelphia: ISI Press, 1964: 189-192. 

[17] Erikson M G, Erlandson P. A taxonomy of motives to cite[J]. So‐cial Studies of Science, 2014, 44(4): 625-637. 

[18] Merton R K, Storer N W. The sociology of science: theoretical and empirical investigations[M]. Chicago: University of Chicago Press, 1973. 

[19] Latour B. Science in action: how to follow scientists and engi‐neers through society[M]. Cambridge: Harvard University Press,1987. 

[20] Tahamtan I, Bornmann L. Core elements in the process of citing publications: conceptual overview of the literature[J]. Journal of Informetrics, 2018, 12(1): 203-216. 

[21] Brooks T A. Private acts and public objects: an investigation of citer motivations[J]. Journal of the American Society for Informa‐tion Science, 1985, 36(4): 223-229. 

[22] Vinkler P. A quasi-quantitative citation model[J]. Scientometrics,1987, 12: 47-72. 

[23] 邱均平, 陈晓宇, 何文静 . 科研人员论文引用动机及相互影响关系研究[J]. 图书情报工作, 2015, 59(9): 36-44. 

[24] Tahamtan I, Afshar A S, Ahamdzadeh K. Factors affecting num‐ber of citations: a comprehensive review of the literature[J]. Sci‐entometrics, 2016, 107(3): 1195-1225. 

[25] Bornmann L. Does the normalized citation impact of universities profit from certain properties of their published documents—such as the number of authors and the impact factor of the publishing journals? A multilevel modeling approach[J]. Journal of Informet‐rics, 2019, 13(1): 170-184. 

[26] 王海涛, 谭宗颖, 陈挺. 论文被引频次影响因素研究——兼论被引频次评估科研质量的合理性[J]. 科学学研究, 2016, 34(2): 171-177. 

[27] Weiner B. An attributional theory of achievement motivation and emotion[J]. Psychological Review, 1985, 92(4): 548-573. 

[28] 徐建中, 王名扬 . 文献被引特征空间上的引文模式分析[J]. 情报杂志, 2013, 32(11): 55-58. 

[29] 耿骞, 景然, 靳健, 等 . 学术论文引用预测及影响因素分析[J].图书情报工作, 2018, 62(14): 29-40. 

[30] Abrishami A, Aliakbary S. Predicting citation counts based on deep neural network learning techniques[J]. Journal of Informet‐rics, 2019, 13(2): 485-499. 

[31] Wang M Y, Wang Z Y, Chen G S. Which can better predict the fu‐ture success of articles? Bibliometric indices or alternative met‐rics[J]. Scientometrics, 2019, 119(3): 1575-1595. 

[32] Cui Y X, Wang Y Z, Liu X Z, et al. Multidimensional scholarly citations: Characterizing and understanding scholars’ citation be‐haviors[J]. Journal of the Association for Information Science and Technology, 2023, 74(1): 115-127. 

[33] Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates, 2017: 4768-4777. 

[34] Chen T Q, Guestrin C. XGBoost: a scalable tree boosting system[C]// Proceedings of the 22nd ACM SIGKDD International Con‐ference on Knowledge Discovery and Data Mining. New York:ACM Press, 2016: 785-794. 

[35] Shapley L S. Contributions to the theory of games[M]. Princeton:Princeton University Press, 1953. 

[36] Weinstock M. Citation indexes[M]// Encyclopedia of Library & Information Science. New York: Marcel Dekker, 1971, 5(1): 16-40. 

[37] Kessler M M. Bibliographic coupling between scientific papers[J]. American Documentation, 1963, 14(1): 10-25. 

[38] Bouma G. Normalized (pointwise) mutual information in colloca‐tion extraction[C]// Proceedings of the Biennial GSCL Confer‐ence, Tubingen, Germany, 2009: 31-40. 

[39] Merton R K. The Matthew effect in science: the reward and com‐munication systems of science are considered[J]. Science, 1968,159(3810): 56-63.

制版编辑  |  李    静

审核  |  王海燕


国家自然科学基金管理学部A类期刊

全国中文核心期刊

CSSCI来源期刊

《中国人民大学复印报刊资料》重要转载来源期刊

CSTPCD(中国科技论文与引文数据库)收录期刊

NSSD (国家哲学社会科学学术期刊数据库)

长按扫描二维码 | 关注我们

情报学报官网:qbxb.istic.ac.cn

邮箱:qbxb@istic.ac.cn

电话:010-68598273

欢迎投稿!


【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。

继续滑动看下一个
情报学报ISSN10000135
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存